Целью проект является цифровка источников о Сибири, чтобы каждый мог найти информацию о месте, где живет, происходивших там событиях, и самое важное – о своих родственниках. Чем качественнее оцифрованы источники, тем лучше они индексируются поисковыми инструментами. Массив сибирских газет с 1857 до 2000 годов огромен и без помощи волонтеров здесь не обойтись. Инструментов машинного распознавания, которые существуют, недостаточно, ведь в газетах разных лет особая верстка и большое разнообразие шрифтов, которые машина может не увидеть.
О специфике проекта рассказала Анна Юрина – комьюнити-менеджер «PRO Сибири»:
Волонтеров на данный момент более шестисот, но активных из них, наверное, вот около двухсот, которые периодически заходят, что-то делают, распознают, и есть пул волонтеров, которые очень активно работают.
Чаще всего да, но часто не с первого раза, потому что есть некоторые особенности распознавания. Допустим, есть правила того, как мы читаем газету: с левого верхнего края вниз, потом в правый верхний угол и дальше – не всегда люди соблюдают эту очередность или не всегда понимают, что в газете несколько страниц. Но все эти трудности оперативно решаются.
В этом году у нас уже второй раз прошел чемпионат про по распознаванию сибирских газет. Наверное, у чемпионата три цели: во-первых, информирование о проекте, во-вторых, увеличение количества распознанных газет, в-третьих, развитие гражданской науки, для того, чтобы просто показать людям, что можно заниматься такими вещами, показать им, что каждый может развивать науку, находясь у себя дома.
В этом году результаты чемпионата очень хорошие, мы увеличили количество распознанных знаков, участников тоже было гораздо больше, также мы сильно увеличили взаимодействие со СМИ. Мы стараемся работать над популяризацией.
Впечатления у меня от Чемпионата остались самые положительные, мне очень понравился высокий уровень организации Чемпионата: не было практически никаких накладок и всем участникам были даны максимально подробные инструкции, что позволяло всем почувствовать себя уютно, снизить градус волнения и проверить свои силы.
Я не очень довольна результатом – заняла всего лишь шестнадцатое место, это примерно середина списочного состава участников. Я бы хотела принять участие в следующем году, но, честно говоря, сам процесс оказался для меня более важным, чем результат. Я, конечно, постараюсь побить свой рекорд, если Чемпионат будет проводиться снова, но погоня за первым местом для меня не самое важное.
Я решила принять участие, потому что уже достаточно давно, с прошлого года, зарегистрирована как волонтёр проекта «PRO Сибирь», но, как и у всех нас, у меня проблемы с тем, чтобы выбрать время, когда я могу заниматься распознаванием, поэтому я рассмотрела Чемпионат как возможность посвятить сто минут распознаванию и потратить время с пользой в таком интересном соревновательном формате.
У нас есть отсканированная газета и для того, чтобы текст был читабельным и слова из этого текста можно было искать в поиске, в том числе через Гугл, эти тексты нужно редактировать. Для автоматическое распознавания есть программы, но, к сожалению, они не всегда делает это качественно, поэтому волонтеры должны эти тексты редактировать.
Изначально у нас была цель загрузить как можно больше периодических изданий, но сейчас на платформе уже совсем разные источники. Не так давно состоялся релиз новых функций: появилась возможность работы с картой и фотографиями. Мы вообще постоянно улучшаем платформу, стараемся оперативно реагировать на все технические ошибки, которые возникают. Пул волонтеров очень сильно увеличился за этот год: сейчас их около шестисот, а вообще пользователей скоро уже станет три тысячи. Мы стараемся популяризировать наш проект, регулярно выступаем на различных конференциях, участвуем в презентациях, взаимодействием со СМИ, учителями и школьниками.
На развитие платформы мы выиграли два гранта. Также принимали участие в написании книги о гражданской науке, насколько я знаю, она еще не вышла – сейчас находится в печати, но нам там посвящена отдельная глава. Всей командой работали над написанием.
Мы стараемся выходить на более глобальный уровень, в том числе, поэтому мы вышли на платформу Добро.ру, чтобы популяризировать проект и набирать людей из разных мест, а не только из Томской и области.
Изначально наш проект зарождался как база источников о Сибири и уже потом к нему начали привлекать волонтеров. Поначалу волонтеры помогали в размещении оцифрованных источников: заполняли таблицы, редактировали тексты. В итоге, 120 тысяч первоначальных источников были загружены на нашу платформу благодаря помощи волонтеров.
– Проект «PRO Сибирь» основан на базе научной Библиотеки Томского государственного университета. Идея создать проект пришла, в 2020 году, когда произошел рост популярности удаленного доступа к различным ресурсам. У нас в библиотеке очень большая и обширная база источников о Сибири, поэтому пришла идея как-то их все оцифровать и создать, такую платформу, на которой все эти источники будут собраны, чтобы с ними могли работать любые люди, в том числе, историки и исследователи, занимающиеся изучением, своего края или семьи.
Сколько волонтеров задействовано в проекте?
Какие результаты достигнуты?
Всегда ли волонтерам удается выполнить поставленную перед ними задачу?
В конце мая состоялся Чемпионат по распознаванию сибирских газет. Что представляет из себя это состязание?
Какие впечатления у вас остались?
Почему вы решили принять участие в Чемпионате?
Какие задачи выполняют волонтеры?
Раньше существовал портал «Люди науки», который, к сожалению, с этого года перестал работать. На этом портале были собраны различные проекты, в которых можно было поучаствовать как научный волонтёр. Я полистала эти проекты и почему-то проект по оцифровке газет меня больше всего зацепил. Моя основная, профессиональная сфера деятельности – биология, но историю я тоже очень люблю, поэтому мне захотелось стать частичкой исторической науки, хотя бы в такой скромной роли.
К сожалению, я очень мало времени уделяю этому проекту. Честно говоря, хотелось бы в перспективе заниматься этим чуть побольше, но мне приятно осознавать, что есть такие увлеченные люди, которые делают настолько классные, интересные, многогранные проекты. Многогранные в плане того, что они постоянно проводят для волонтеров какие-то интересные мероприятия: не только Чемпионат по распознаванию газет, но и экскурсии в библиотеку, различные интересные курсы. В общем, что-то постоянно делают для волонтеров, поэтому мне нравится быть частью этого проекта.
Сейчас мы со своей командой тоже пытаемся разработать проект гражданской науки, и для меня немаловажно то, что у проекта «PRO Сибирь» я учусь тому, как можно работать с волонтерами, какие варианты поощрения им предлагать, как выстраивать коммуникацию. Для меня этот опыт оказывается очень ценным.
Чемпионат по распознаванию сибирских газет проходил в двух форматах: онлайн и оффлайн, и, поскольку он проводился в Томске, а я нахожусь в Челябинской области, поучаствовать в нем оффлайн я не имела никакой возможности, поэтому я участвовала онлайн.
Чемпионат длился ровно сто минут. За это время мы должны были распознать как можно больше слов из Сибирской газеты, которая была нам предоставлена. У меня было дореволюционное издание и объем информации в ней был большой, поэтому она автоматически не распознавалась. Рабочая область на мониторе, в которой мы занимаемся распознаванием, у нас обычно состоит из двух частей: в левой части – скан газеты, в правой – область для редактирования и набора текста. В этой области, как правило, машина автоматически распознает текст, но распознает она его не совсем правильно, а если газета дореволюционная то совсем неправильно, потому что мы должны писать не в дореволюционной грамматике, а в современной. Поскольку газета была большая, в ней ничего не было распознано и нужно было набирать весь текст вручную, чем я и занималась на протяжении ста минут.
Почему решили стать волонтером проекта «PRO Сибирь»?